Bài toán Quá trình quyết định Markov

Bài toán cốt lõi của MDP đó là tìm một "nguyên tắc" cho người ra quyết định: một hàm  π {\displaystyle \pi }  mà xác định hành động  π ( s ) {\displaystyle \pi (s)}  rằng người ra quyết định sẽ chọn khi trong trạng thái s {\displaystyle s} . Ghi chú rằng khi một quá trình quyết định Markov được kết hợp với một nguyên tắc theo cách thức như vậy, điều này sẽ làm cho hành động cho mỗi trạng thái và sự kết hợp kết quả sẽ hành xử giống như một xích Markov.

Mục đích là để chọn ra một nguyên tắc π {\displaystyle \pi }  mà sẽ tối đa hóa vài hàm tích lũy của các phần thưởng ngẫu nhiên, điển hình là tổng khấu hao mong muốn qua một đường vô cực tiềm năng:

∑ t = 0 ∞ γ t R a t ( s t , s t + 1 ) {\displaystyle \sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}}    (trong đó ta chọn  a t = π ( s t ) {\displaystyle a_{t}=\pi (s_{t})} )

trong đó    γ   {\displaystyle \ \gamma \ }  là hệ số chiết khấu và thỏa mãn  0 ≤   γ   < 1 {\displaystyle 0\leq \ \gamma \ <1} . (Ví dụ, γ = 1 / ( 1 + r ) {\displaystyle \gamma =1/(1+r)}  khi tốc độ chiết khấu là r.) γ {\displaystyle \gamma }  thường gần với 1.

Do tính chất Markov, chính sách tối ưu cho bài toán cụ thể này thực sự có thể được viết như là một hàm của  s {\displaystyle s} , như giả định ở trên.

Tài liệu tham khảo

WikiPedia: Quá trình quyết định Markov http://www.cs.ualberta.ca/~sutton/book/ebook http://www.cs.uwaterloo.ca/~jhoey/research/spudd/i... http://www.springer.com/mathematics/applications/b... http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/5... http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.ht... http://www.eecs.umich.edu/~baveja/ http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps... //dx.doi.org/10.1287%2Fmoor.22.1.222 http://www.jstor.org/stable/3690147 http://ncatlab.org/nlab/show/Giry+monad